Se tiene una población que se sabe viene de dos subpoblaciones normales independientes con medias y varianzas desconocidas. El resultado de esto es una mixtura
May 8, 2017
Se tiene una población que se sabe viene de dos subpoblaciones normales independientes con medias y varianzas desconocidas. El resultado de esto es una mixtura
ggplot(tot,aes(x=x))+geom_histogram(bins=15)+geom_rug(aes(color=id))
La densidad del modelo es:
\[ f(x;\mu_1,\mu_2,\sigma^2_1,\sigma^2_2,\pi)=\pi d(x;\mu_1,\sigma^2_1)+(1-\pi)d(x;\mu_2,\sigma^2_2) \]
Con esto la función de log-verosimilitud queda:
\[ l(x;\mu_1,\mu_2,\sigma^2_1,\sigma^2_2,\pi)= \]
\[\sum_{i=1}^n \ln(\pi d(x_i;\mu_1,\sigma^2_1)+(1-\pi)d(x_i;\mu_2,\sigma^2_2)) \]
Obteniendo un sistema a partir de las derivadas tenemos:
\[ \frac{dl}{d\pi}=\sum_{i=1}^n \frac{d(x_i;\mu_1,\sigma^2_1)-d(x_i;\mu_2,\sigma^2_2)}{\pi d(x;\mu_1,\sigma^2_1)+(1-\pi)d(x;\mu_2,\sigma^2_2)} \] \[ \frac{dl}{d\mu_k}=\sum_{i=1}^n \frac{(-1)^{k+1}((3-2k)\pi+k-1)\frac{d}{d\mu_k}d(x_i;\mu_k,\sigma^2_k)}{\pi d(x;\mu_1,\sigma^2_1)+(1-\pi)d(x;\mu_2,\sigma^2_2)} \]
\[ \frac{dl}{d\sigma^2_k}=\sum_{i=1}^n \frac{(-1)^{k+1}((3-2k)\pi+k-1) \frac{d}{d\sigma^2_k}d(x_i;\mu_k,\sigma^2_k)}{\pi d(x;\mu_1,\sigma^2_1)+(1-\pi)d(x;\mu_2,\sigma^2_2)} \]
Sea \(f(x)\) una funcion en la cúal deseamos encontrar una raiz. Sea \(\alpha\) esta raiz. Si realizamos la expansión en el punto \(x_i\)
\[ f(x)=f(x_i)+f'(x_i)(x-x_i)+O((x-x_i)^2) \]
Si evaluamos en \(\alpha\) e ignoramos el segundo termino,
\[ 0=f(\alpha)=f(x_i)+f'(x_i)(\alpha-x_i) \] Así \[ \alpha=x_i-\frac{f(x_i)}{f'(x_i)} \]
Evidentemente este \(\alpha\) que estamos proponiendo no es exactamente la raiz (ya que aproximamos al descartar los terminos de orden 2) pero esperamos que este mas cerca de la raiz, asi obtenemos
\[ x_{i+1}=x_i-\frac{f(x_i)}{f'(x_i)} \]
Esto se generaliza a funciones \(f:\mathbb{R^n}\to\mathbb{R^m}\) (Método de Newton-Rhapson) con
\[ \vec{x_{i+1}}=\vec{x_i}-J(\vec{x_i})^{-1}f(\vec{x_i}) \]
Ventajas
Desventajas
En el ejemplo inicial tenemos una variable que no fue observada, de la cual solo podemos conjeturar su valor.
Es un problema de huevo y gallina.
Ventajas
Desventajas
En el caso especial de una mixtura. (Como el ejemplo inicial)
\[ \pi=\bar \gamma_i \]
Paso de Maximización: Obtenga el estimador maximo verosimil para \(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2\). Que son los estimadores usuales tomando como pesos las probabilidades \(\gamma_i\) calculadas en el paso anterior.
Repita los pasos dos y tres hasta la convergencia
Se utilizaron números aleatorios entre 0 y 10 para inicializar las medias, las varianzas se iniciaron cada una con la mitad de la varianza muestral.
Se actualiza la probabilidad de que cada punto pertenezca a cada poblacion (es decir se calcula \(\gamma_i\))
Con esta información se estiman de nuevo medias y varianzas usando el estimador maximo verosimil.
Repetir hasta la convergencia